查看原文
其他

机器学习丨机器学习与统计学、计量经济学的区别与联系

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

虽然机器学习源于计算机科学的人工智能领域,但在未来有望成为一种广泛应用于各行业的通用技术。比如,2018年9月,麻省理工学院名誉校长 Eric Grimson 在接受澎湃新闻采访时表示,机器学习在未来 “会变得像使用Word、PowerPoint 或者 Excel 一样”。
既然如此,机器学习与传统的统计学,以及广泛用于社会科学的计量经济学有何关系呢?下面从研究目标与方法论的区别,以及学科间融合的角度进行阐述。



研究目标的不同

从表面上看,机器学习通常使用大数据(样本容量很大或变量很多),而统计学与计量经济学则一般样本较小。但这种区别正在日益模糊,因为统计学与计量经济学也越来越多地使用大数据。
在本质上,这三个学科的区别在于其研究目的有所不同。


机器学习的主要目的在于 “预测”(prediction);

统计学侧重于 “统计建模与推断”(statistically modeling and inference);

计量经济学则着重于 “因果推断”(causal inference)。

参见下表:
机器学习的主要目标在于预测,即根据  来预测 为达到此目的,可以使用任何函数 ,甚至是难以解释的黑箱方法(比如神经网络);只要预测结果接近就好。因此,机器学习方法的 “可解释性”(interpretability, explainability)一般比较差。
在机器学习的模型中,即使有 ,也只是作为预测的中间手段与桥梁而已。机器学习的关注重点就是 ,几乎完全生活在  的世界里,成功与否就看  的预测效果。
反之,计量经济学的主要目标则在于 “因果推断”(causal inferences),即推断  对  的因果作用。为了识别并便于解释此因果关系,经济学家通常需要对  的函数形式作很强的假定,比如假设线性回归模型(线性模型最容易解释其参数  的含义):

然后,将所有精力集中于得到未知参数  的估计量 ,并针对  进行统计推断(点估计、区间估计、假设检验等)。总之,计量经济学关注的重点为 ,几乎总是生活在  的世界里。事实上,大多数实证论文只是为了说明,具有统计与经济的显著性。
显然,由于计量经济学对于函数  的形式作了较强假定,可能与现实不符,故其预测效果一般并不理想(通常的实证研究也不作预测)。另一方面,对于统计学而言,也十分注重对于  的统计推断,但所建模型可能只是相关关系,而不像计量经济学那样专注于因果关系。



方法论的区别

在方法论上,机器学习主要使用 “最优化”(optimization)方法,通常需要最小化某个 “目标函数”(objective function)或 “损失函数”(loss function)。由于此最优化问题一般没有“解析解”(closed-form solution),故通常需要通过某种迭代的 “算法”(algorithm)寻找近似的 “数值解”(numerical solution)。
由于机器学习的目标是让预测结果  尽量接近 ,而  可以观测,故度量机器学习的效果非常简单,直接比较  与  的接近程度即可(比如,均方误差、预测错误率等),并不需要使用渐近理论。
另一方面,对于统计学与计量经济学而言,虽然也经常作最优化,但由于关注的重点为不可观测的参数 ,故在估计出  之后,无法直接比较  与  的接近程度,而只能使用概率统计的 “渐近理论”(asymptotics),也称为 “大样本理论”(large sample theory),证明当样本容量趋向无穷大()时,估计量  会(依概率)收敛到真实参数 ,以及  服从渐近正态分布等性质(以便进行统计推断);并辅之以小样本的 “蒙特卡洛模拟”(Monte Carlo simulation)进行验证。
由此可知,由于研究目标的不同,机器学习与统计学、计量经济学在研究范式上有着本质的区别,参见下图:
一般认为机器学习使用了大量的统计方法,但事实上机器学习几乎从不进行统计推断,而只是使用统计方法来估计函数 。由于机器学习可以直接比较预测值与实际值,故无须使用高深的渐近理论(依赖于大数定律与中心极限定理等)来证明预测效果;在这个意义上,机器学习反而比统计学或计量经济学更为简单!



学科间的融合

以上强调了机器学习与统计学及计量经济学的区别。事实上,这些学科也存在密切的联系,互相借鉴。比如,2011年图灵奖得主、人工智能先驱 Judea Pearl 即主张将因果推断引入人工智能领域,也成为越来越多研究者的共识。既然因果推断是人类智能的重要体现,未来的 “机器人” 怎能缺乏因果推断的能力呢?
当然,业界人士可能认为,做商业预测只需要变量之间的相关关系即可,并不一定需要因果关系。比如,你看到街上有人带伞,就可预测可能下雨;但人们带伞显然并不导致下雨。但事实上,许多商业问题都涉及因果效应。
例如,你想预测某个公司政策的效应,比如将排名第一的搜索结果放到排名第三,将会对其点击量有多少影响?此预测实际上是在估计该公司政策的因果效应。
又比如,假设你收集了关于宾馆房价与入住率的数据,想预测宾馆房价对入住率的影响。如果直接根据相关关系进行预测,会发现宾馆入住率与房价显著正相关。但这并非因果关系,因为在旅游旺季,宾馆爆满而房价也很高。显然,如果根据机器学习的预测结果,建议宾馆为了增加入住率而提高房价,无疑将南辕北辙。因此,对于考察公司政策的效应这一类重要预测问题,其实本质上也在做因果推断。
另一方面,因果推断也离不开预测。事实上,因果推断的本质上恰恰是在做预测。比如,某地区实施了扶贫政策,你想评估此政策的效应。此时,该地区扶贫之后的状态可以度量,但最关键的信息却不可观测,即此地区如果没有实施扶贫会怎么样?对于这种 “反事实结果”(counterfactual outcome),就只能进行估计或预测。这也正是 “鲁宾因果模型”(Rubin's Causal Model)的核心思想。由于机器学习擅长作预测,故机器学习方法在因果推断方面也大有用武之地。
目前,机器学习的方法正在加速地进入统计学与计量经济学。可以预见,这三个学科之间的相互交融与借鉴将进一步加强。

_________________________________
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年
陈强,《机器学习及R应用》,高等教育出版社,2020年,即将出版










►一周热文

发布丨2019年年终盘点之转载热门文章TOP10

发布丨2019年年终盘点之原创热门文章TOP10

老姚专栏丨伪相关、FWL定理与偏相关系数

统计计量丨政策效应评估的四种主流方法(Policy evaluation)

数据呈现丨R语言:逻辑回归模型可视化分析

统计计量丨双重差分法的平行趋势假定















数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




作者:陈强出处:计量经济学及Stata应用推荐:简华(何年华)编辑:青酱






    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存